Gini Index এবং Information Gain হল দুটি গুরুত্বপূর্ণ পরিমাপ যা Decision Tree মডেল তৈরি করতে ব্যবহৃত হয়। এই দুটি পরিমাপ মূলত বিশ্লেষণ (splitting) বা বিভাজন (partitioning) করার সময় শ্রেণীবদ্ধকরণের জন্য শ্রেণীগুলির মধ্যে পার্থক্য বা বৈচিত্র্য মাপতে ব্যবহৃত হয়।
১. Gini Index (Gini Impurity)
Gini Index বা Gini Impurity একটি পরিমাপ যা ব্যবহৃত হয় এটি নির্ধারণ করতে যে একটি নির্দিষ্ট নোডে (node) ডেটার মধ্যে কতটা অশুদ্ধতা (impurity) বা বৈচিত্র্য (heterogeneity) রয়েছে। এটি একটি decision tree এর গাছের বিভাজন তৈরি করতে সাহায্য করে।
Gini Index এর মান 0 থেকে 1 এর মধ্যে থাকে:
- 0 মানে হলো সেই নোডটি সম্পূর্ণরূপে পরিষ্কার, অর্থাৎ সেখানে শুধু এক ধরনের শ্রেণী আছে।
- 1 মানে হলো সেখানে সমস্ত শ্রেণীর সমান সম্ভাবনা রয়েছে।
Gini Index গণনা করার সূত্র:
এখানে, হলো শ্রেণী -এর জন্য সম্ভাবনা (probability) এবং হলো শ্রেণীর সংখ্যা।
Gini Index এর উদাহরণ:
ধরা যাক, একটি নোডে 100টি উদাহরণ আছে। এর মধ্যে 70টি শ্রেণী ১ এবং 30টি শ্রেণী ২। তাহলে Gini Index হবে:
এটি নির্দেশ করে যে 42% অশুদ্ধতা রয়েছে, এবং সিদ্ধান্ত নেওয়ার জন্য এই নোডের বিভাজনটা ভালো হতে পারে।
২. Information Gain
Information Gain হল একটি পরিমাপ যা নির্ধারণ করে কোন বৈশিষ্ট্য (feature) সবচেয়ে ভালভাবে ডেটা সেটটিকে বিভাজন করতে পারে। এটি মূলত entropy এর ভিত্তিতে কাজ করে এবং একটি গাছের নোডে বিভাজন করার ফলে যে তথ্য লাভ (information gain) হবে তা মাপা হয়।
Information Gain এর মাপকাঠি হলো Entropy (তথ্যের পরিমাণ বা বিশৃঙ্খলা), এবং এটি গাছের বিভাজন করার জন্য কতটা সঠিক তথ্য পাওয়া যাচ্ছে তা পরিমাপ করে।
Information Gain এর সূত্র:
এখানে:
- হলো মূল ডেটাসেট।
- হলো বৈশিষ্ট্য (feature) যা দ্বারা বিভাজন হচ্ছে।
- হলো বৈশিষ্ট্য এর মান এর জন্য সাবসেট।
- এবং হল ডেটাসেটের আকার (number of instances)।
Information Gain এর উদাহরণ:
ধরা যাক, আমাদের কাছে একটি ডেটাসেট রয়েছে, যেখানে দুটি বৈশিষ্ট্য আছে: "Weather" এবং "Temperature"। আমরা যাচাই করতে চাই কোন বৈশিষ্ট্যটি শ্রেণীভুক্তকরণের জন্য আরও বেশি তথ্য সরবরাহ করে। আমরা প্রতিটি বৈশিষ্ট্যের জন্য entropy এবং information gain গণনা করব। যেই বৈশিষ্ট্যটির বেশি information gain থাকবে, সেটি সিদ্ধান্ত গাছের জন্য সেরা বৈশিষ্ট্য হিসেবে ব্যবহার হবে।
Gini Index এবং Information Gain এর মধ্যে পার্থক্য:
- বিপরীত পরিমাপ:
- Gini Index ছোট হলে ভাল (যে নোডে অশুদ্ধতা কম, সেটি ভালো)।
- Information Gain বড় হলে ভাল (যত বেশি তথ্য লাভ হবে, তত ভালো)।
- কিভাবে কাজ করে:
- Gini Index শুধুমাত্র বৈশিষ্ট্যের মধ্যে অশুদ্ধতা মাপবে।
- Information Gain entropy এর পরিবর্তন মাপবে, যা সিদ্ধান্ত নেয়া সম্পর্কে তথ্য প্রদান করে।
- ব্যবহার:
- Gini Index সাধারণত CART (Classification and Regression Tree) মডেল তৈরি করতে ব্যবহৃত হয়।
- Information Gain সাধারণত ID3 (Iterative Dichotomiser 3) এবং C4.5 অ্যালগরিদমে ব্যবহৃত হয়।
উপসংহার
- Gini Index এবং Information Gain দুটি মেট্রিক, যা ডেটা সেটের শ্রেণীবদ্ধকরণের জন্য শ্রেণীগুলির মধ্যে পার্থক্য বা বৈচিত্র্য মাপতে ব্যবহৃত হয়।
- Gini Index অশুদ্ধতা পরিমাপ করে এবং Information Gain সিদ্ধান্ত নেয়ার জন্য তথ্য লাভের পরিমাণ পরিমাপ করে।
Read more